بازشناسی گفتار پیوسته فارسی به کمک شبکه های عصبی
thesis
- وزارت علوم، تحقیقات و فناوری - دانشگاه علم و صنعت ایران
- author منیژه منتظریان
- adviser احمد اکبری عادل رحمانی
- Number of pages: First 15 pages
- publication year 1378
abstract
گفتار محصول سیستمهای تولید و درک گفتار و مغز انسان است . انسان همیشه از طریق گفت و شنود توانسته است ارتباط بهتری با محیط خود برقرار کند. بنابراین اگر بتوان از کامپیوتر بصورت سمعی و بصری بهره گرفت ، تحول بزرگی در استفاده از آنها بوجود می آید. در این پروژه، بمنظور طراحی روشهایی در بازشناخت گفتار پیوسته فارسی، شبکه های عصبی بعنوان ابزار مدلسازی انتخاب شده اند. در بخش نخست اجرای پروژه، با هدف دستیابی به یک روش مناسب مرزبندی، سه روش تعیین مرز کلمات برگزیده و مقایسه شده اند. سپس ، از یک الگوریتم ساده و کارا در استخراج هجاهای عبارات استفاده شده است . بمنظور محدود ساختن دامنه گسترده لغات فارسی، کلمات را به اعداد دورقمی فارسی محدود ساخته ایم. بنابراین، از این پس هر جا که از مضامین "عبارت " و "کلمه" استفاده شده است ، منظور اعداد دو رقمی فارسی است . در بخش بعدی پروژه، ضرایب کپسترال و دلتاکپسترال از هجاهای بدست آمده از عبارات تلفظ شده توسط یک گوینده زن، استخراج می شوند. بمنظور دستیابی به ویژگی از گفتار که در تعلیم مدل شبکه عصبی بازشناخت بهترین کارآیی را داشته باشد، از ضرایب به دست آمده در تشکیل سه گونه متفاوت بردار ویژگی استفاده می شود. بمنظور مقایسه عملکرد مدلهای شبکه با روشهای مختلف تعلیم، در انجام مدلسازی از دو شبکه mlp و کوهونن بهره برده ایم. ساختارهای مختلفی از این دو مدل را تعلیم داده و نتایج حاصل از عملکرد آنها را با یکدیگر مقایسه می کنیم.
similar resources
معرفی شبکه های عصبی پیمانه ای عمیق با ساختار فضایی-زمانی دوگانه جهت بهبود بازشناسی گفتار پیوسته فارسی
In this article, growable deep modular neural networks for continuous speech recognition are introduced. These networks can be grown to implement the spatio-temporal information of the frame sequences at their input layer as well as their labels at the output layer at the same time. The trained neural network with such double spatio-temporal association structure can learn the phonetic sequence...
full textمعرفی شبکه های عصبی پیمانه ای عمیق با ساختار فضایی-زمانی دوگانه جهت بهبود بازشناسی گفتار پیوسته فارسی
در این مقاله به معرفی شبکه های عصبی پیمانه ای عمیق و قابل رشد به منظور بهبود بازشناسی گفتار پیوسته پرداخته می شود. ساختار این شبکه ها و روشهای پیشتعلیم معرفی شده برای آنها بگونه ای است که درعین هماهنگی با ساختار گفتار، در حافظه و محاسبات لازم صرفه جویی میشود. بدلیل قابلیت رشد این ساختارها، می توان در تعلیم آنها اطلاعات فضایی-زمانی بردارهای بازنمایی در ورودی و اطلاعات فضایی-زمانی برچسب آوایی آ...
full textشبکه عصبی پیچشی با پنجرههای قابل تطبیق برای بازشناسی گفتار
Although, speech recognition systems are widely used and their accuracies are continuously increased, there is a considerable performance gap between their accuracies and human recognition ability. This is partially due to high speaker variations in speech signal. Deep neural networks are among the best tools for acoustic modeling. Recently, using hybrid deep neural network and hidden Markov mo...
full textبازشناسی احساس از روی گفتار پیوسته فارسی
در سالهای اخیر بازشناسی احساس به عنوان روش جدیدی برای تعامل انسان با کامپیوتر مورد توجه و موضوع تحقیقات زیادی بوده است. احساس، در قالب حرکات چهره، گفتار، حرکات دست و بدن و علایم زیستی مانند ضربان قلب بروز می یابد. مدل پیشنهادی در این پایان نامه از گفتار پیوسته فارسی برای بازشناسی احساس استفاده می کند. بازشناسی احساس از گفتار بر روی زبان های مختلفی انجام شده اما بر روی زبان فارسی تا کنون این چن...
تصحیح خودکار غلط های تایپی فارسی به کمک شبکه عصبی مصنوعی ترکیبی
Automatic correction of typos in the typed texts is one of the goals of research in artificial intelligence, data mining and natural language processing. Most of the existing methods are based on searching in dictionaries and determining the similarity of the dictionary entries and the given word. This paper presents the design, implementation, and evaluation of a Farsi typo correction system u...
full textمدلسازی وابسته به متن در بازشناسی گفتار پیوسته بر اساس در خت تصمیم گیری آوایی فارسی
مدلسازی وابسته به متن به عنوان شیوه ای مفید برای افزایش دقت مدلسازی در بازشناسی گفتار پیوسته مورد توجه است. معمولترین شکل پیاده سازی این شیوه، استفاده از مدلهای سه آوایی است. با این همه، تعداد زیاد این مدلها موجب می شود که در عمل، آموزش سیستم با مشکلات زیادی همراه باشد و دستیابی به آموزش مقاوم (robust training) به سختی میسر گشته یا اصولا مقدور نشود. یکی از شیوه های حل این مشکل، استفاده از روش گ...
full textMy Resources
document type: thesis
وزارت علوم، تحقیقات و فناوری - دانشگاه علم و صنعت ایران
Hosted on Doprax cloud platform doprax.com
copyright © 2015-2023